空间红外的小型船舶检测旨在将小型船只与轨道轨道捕获的图像分开。由于图像覆盖面积极大(例如,数千平方公里),这些图像中的候选目标比空中基于天线和陆基成像设备观察到的目标要小得多,二聚体,更可变。现有的简短成像基于距离的红外数据集和目标检测方法不能很好地用于空间监视任务。为了解决这些问题,我们开发了一个空间红外的小型船舶检测数据集(即Nudt-Sirst-Sea),该数据集具有48个空间基红外图像和17598像素级的小型船上注释。每个图像覆盖约10000平方公里的面积,带有10000x10000像素。考虑到这些充满挑战的场景,考虑到这些微小的船只的极端特征(例如,小,昏暗,可变的),我们在本文中提出了多层Transunet(MTU-NET)。具体而言,我们设计了视觉变压器(VIT)卷积神经网络(CNN)混合编码器来提取多层次特征。首先将局部特征图用几个卷积层提取,然后馈入多级特征提取模块(MVTM)以捕获长距离依赖性。我们进一步提出了一种拷贝性衡量量 - 帕斯特(CRRP)数据增强方法,以加速训练阶段,从而有效地减轻了目标和背景之间样本不平衡问题的问题。此外,我们设计了一个焦点损失,以实现目标定位和形状描述。 NUDT-SIRST-SEA数据集的实验结果表明,就检测概率,错误警报率和联合交集的交集而言,我们的MTU-NET优于传统和现有的基于深度学习的SIRST方法。
translated by 谷歌翻译
图像文本检索(ITR)在桥接视觉和舌形式方面具有挑战性。对比度学习已被大多数先前的艺术所采用。除了有限的负面图像文本对外,约束学习的能力受到手动加权负对以及对外部知识的不认识的限制。在本文中,我们提出了新型耦合多样性敏感的动量约束学习(编码器),以改善跨模式表示。首先,发明了一种新颖的多样性对比度学习(DCL)体系结构。我们引入了两种模式的动态词典,以扩大图像文本对的比例,并且通过自适应负面对加权实现多样性敏感性。此外,编码器设计了两个分支。一个人从图像/文本中学习实例级的嵌入式,它还基于其嵌入为其输入图像/文本生成伪在线聚类标签。同时,另一个分支学会从常识知识图中查询以形成两种模式的概念级描述符。之后,两个分支都利用DCL来对齐跨模式嵌入空间,而额外的伪聚类标签预测损失则用于促进第二个分支的概念级表示学习。在两个流行的基准测试(即Mscoco和Flicker30k)上进行的广泛实验,验证编码器的表现明显优于最先进的方法。
translated by 谷歌翻译
对于人工智能系统来说,在低计算成本的情况下实现准确的视频识别是一项挑战。基于自适应推理的有效视频识别方法通常会预览视频,并专注于显着零件以降低计算成本。大多数现有作品都集中在复杂的网络学习,并具有基于视频分类的目标。以所有框架为正样本,其中很少有人关注积极样本(显着框架)和负面样本(非空位框架)之间的歧视。为了填补这一空白,在本文中,我们提出了一个新型的非高度抑制网络(NSNET),该网络有效地抑制了非征力框架的响应。具体而言,在框架级别上,可以生成可以区分显着框架和非空位框架的有效伪标签,以指导框架显着性学习。在视频层面上,在双重视频级别的监督下都学会了一个时间关注模块,这些模块既是对突出表示和非偏心表示形式。从两个两个级别的显着度测量都合并以利用多粒性互补信息。在四个众所周知的基准上进行的广泛实验验证了我们的NSNET不仅实现了最先进的准确性效率折衷,而且比最先进的推理速度要快得多(2.4〜4.3倍) - 艺术方法。我们的项目页面位于https://lawrencexia2008.github.io/projects/nsnet。
translated by 谷歌翻译
有效的视频识别是一个热点研究主题,具有互联网和移动设备上多媒体数据的爆炸性增长。大多数现有方法都选择了显着帧,而不意识对特定于类的显着性分数,这忽略了框架显着性及其归属类别之间的隐式关联。为了减轻此问题,我们设计了一种新颖的时间显着性查询(TSQ)机制,该机制引入了特定于类的信息,以提供明显测量的细粒线索。具体而言,我们将特定于类的显着性测量过程建模为查询响应任务。对于每个类别,它的共同模式被用作查询,最突出的框架对其进行了响应。然后,计算出的相似性被用作框架显着性得分。为了实现这一目标,我们提出了一个时间显着性查询网络(TSQNET),其中包括基于视觉外观相似性和文本事件对象关系的TSQ机制的两个实例化。之后,实施了交叉模式相互作用以促进它们之间的信息交换。最后,我们使用了两种模式生成的最自信类别的特定阶级销售,以执行显着框架的选择。广泛的实验通过在ActivityNet,FCVID和Mini-Kinetics数据集上实现最新结果来证明我们方法的有效性。我们的项目页面位于https://lawrencexia2008.github.io/projects/tsqnet。
translated by 谷歌翻译
混合动力和端到端(E2E)自动语音识别(ASR)系统之间的基本建模差异在其中创造了巨大的多样性和互补性。本文研究了混合TDNN和构型E2E ASR系统的基于多通的逆转和交叉适应系统组合方法。在多通恢复中,最先进的混合动力LF-MMI训练有素的CNN-TDNN系统具有速度扰动,规格和贝叶斯学习隐藏单元供款(LHUC)扬声器的适应器,以在被恢复之前产生初始的N-tesk输出由扬声器适应构象异构体系统,使用2向跨系统得分插值。在交叉适应中,混合CNN-TDNN系统适用于构象异构体系统的1好的输出,反之亦然。在300小时的总机语料库上进行的实验表明,使用两种系统组合方法中的任何一个得出的组合系统都超过了单个系统。在NIST HUB5'00,RT03和RT03和RT02评估数据。
translated by 谷歌翻译
时间行动提案生成(TAPG)是一个具有挑战性的任务,旨在在具有时间边界的未经监控视频中找到动作实例。为了评估提案的信任,现有的作品通常预测建议与地面真理之间的时间交叉联盟(TIOO)监督的提案的行动得分。在本文中,我们通过利用背景预测得分来限制提案的信心,创新地提出了一般的辅助背景约束理念,以进一步抑制低质量的建议。以这种方式,可以轻松地将背景约束概念用于现有的TAPG方法(例如,BMN,GTAD)。从这个角度来看,我们提出了背景约束网络(BCNet),以进一步利用行动和背景的丰富信息。具体地,我们介绍了一种动作 - 背景交互模块,用于可靠的置信度评估,它通过帧和剪辑级别的注意机制模拟了动作和背景之间的不一致。在两个流行的基准测试中进行了广泛的实验,即ActivityNet-1.3和Thumos14。结果表明,我们的方法优于最先进的方法。配备现有的Action Classifier,我们的方法还可以在时间动作本地化任务上实现显着性能。
translated by 谷歌翻译
的状态的最先进的视频去模糊方法的成功主要源于潜伏视频恢复相邻帧之间的对准隐式或显式的估计。然而,由于模糊效果的影响,估计从所述模糊的相邻帧的对准信息是不是一个简单的任务。不准确的估计将干扰随后的帧的恢复。相反,估计比对信息,我们提出了一个简单而有效的深层递归神经网络与多尺度双向传播(RNN-MBP),有效传播和收集未对齐的相邻帧的信息,更好的视频去模糊。具体来说,我们建立与这可以通过在不同的尺度整合他们直接利用从非对齐相邻隐藏状态帧间信息的两个U形网RNN细胞多尺度双向传播〜(MBP)模块。此外,为了更好地评估算法和国家的最先进的存在于现实世界的模糊场景的方法,我们也通过一个精心设计的数字视频采集系统创建一个真实世界的模糊视频数据集(RBVD)(的DVA)并把它作为训练和评估数据集。大量的实验结果表明,该RBVD数据集有效地提高了对现实世界的模糊的视频现有算法的性能,并且算法进行从优对三个典型基准的国家的最先进的方法。该代码可在https://github.com/XJTU-CVLAB-LOWLEVEL/RNN-MBP。
translated by 谷歌翻译
近年来,道路安全引起了智能运输系统领域的研究人员和从业者的重大关注。作为最常见的道路用户群体之一,行人由于其不可预测的行为和运动而导致令人震惊,因为车辆行人互动的微妙误解可以很容易地导致风险的情况或碰撞。现有方法使用预定义的基于碰撞的模型或人类标签方法来估计行人的风险。这些方法通常受到他们的概括能力差,缺乏对自我车辆和行人之间的相互作用的限制。这项工作通过提出行人风险级预测系统来解决所列问题。该系统由三个模块组成。首先,收集车辆角度的行人数据。由于数据包含关于自我车辆和行人的运动的信息,因此可以简化以交互感知方式预测时空特征的预测。使用长短短期存储器模型,行人轨迹预测模块预测后续五个框架中的时空特征。随着预测的轨迹遵循某些交互和风险模式,采用混合聚类和分类方法来探讨时空特征中的风险模式,并使用学习模式训练风险等级分类器。在预测行人的时空特征并识别相应的风险水平时,确定自我车辆和行人之间的风险模式。实验结果验证了PRLP系统的能力,以预测行人的风险程度,从而支持智能车辆的碰撞风险评估,并为车辆和行人提供安全警告。
translated by 谷歌翻译
单帧红外小目标(SIRST)检测旨在将小目标与混乱背景区分开。随着深度学习的发展,基于CNN的方法由于其强大的建模能力而在通用对象检测中产生了有希望的结果。但是,现有的基于CNN的方法不能直接应用于红外小目标,因为其网络中的汇总层可能导致深层中的目标损失。为了解决这个问题,我们在本文中提出了一个密集的嵌套注意网络(DNANET)。具体而言,我们设计了一个密集的嵌套交互模块(DNIM),以实现高级和低级特征之间的渐进互动。随着DNIM中的重复相互作用,可以保持深层中的红外小目标。基于DNIM,我们进一步提出了一个级联的通道和空间注意模块(CSAM),以适应增强多级特征。借助我们的DNANET,可以通过重复的融合和增强来充分整合和充分利用小型目标的上下文信息。此外,我们开发了一个红外的小目标数据集(即nudt-sirst),并提出了一组评估指标来进行全面的绩效评估。对公众和我们自我开发的数据集进行的实验证明了我们方法的有效性。与其他最先进的方法相比,我们的方法在检测概率(PD),假警报率(FA)和联合交集(IOU)方面取得了更好的性能。
translated by 谷歌翻译
红外小目标检测是红外系统中的重要基本任务。因此,已经提出了许多红外小目标检测方法,其中低级模型已被用作强大的工具。然而,基于低级别的方法为不同的奇异值分配相同的权重,这将导致背景估计不准确。考虑到不同的奇异值具有不同的重要性,并且应判别处理,本文提出了一种用于红外小目标检测的非凸张力低秩近似(NTLA)方法。在我们的方法中,NTLA正则化将不同的权重自适应分配给不同的奇异值以进行准确背景估计。基于所提出的NTLA,我们提出了不对称的空间 - 时间总变化(ASTTV)正则化,以实现复杂场景中的更准确的背景估计。与传统的总变化方法相比,ASTTV利用不同的平滑度强度进行空间和时间正则化。我们设计了一种有效的算法来查找我们方法的最佳解决方案。与一些最先进的方法相比,所提出的方法达到各种评估指标的改进。各种复杂场景的广泛实验结果表明,我们的方法具有强大的鲁棒性和低误报率。代码可在https://github.com/liuting20a/asttv-ntla获得。
translated by 谷歌翻译